虽然 密集检索 密集检索通过捕捉语义意图彻底改变了搜索方式,但在实际生产环境中却揭示了一个残酷的真相:向量嵌入往往会‘平滑化’诸如产品编号、罕见缩写和专业术语等关键细节。真实世界并非纯粹语义化的,而是抽象含义与刚性标识符的混乱混合体。
生产环境的现实
- 词法优势:词法检索(如BM25)仍是匹配确切词汇和短语重叠的黄金标准。它不会试图猜测‘你想要表达什么’,而是精准找到‘你说过的内容’。
- 语义鸿沟:密集检索在匹配语义方面极为强大(例如‘支付问题’与‘交易失败’的匹配),但其本质上难以处理高精度的 稀疏信号 如SKU编号或零件代码等。
- 混合检索的必要性:混合检索之所以存在,是因为世界既非纯粹语义化,也非纯粹词法化。用户行为具有两面性——有时他们在搜索一个概念,有时则在寻找一个特定的‘大海捞针’式标识符。
技术洞察
密集检索在匹配语义方面很强,而词法检索则在精确词汇、标识符和短语重叠方面表现突出。真实的用户问题往往需要两者结合。混合检索的存在,正是因为世界既非纯粹语义化,也非纯粹词法化。